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摘要 : 目前 天 文 观测 中 对 数据 的 实时 处 理 需 求 越 来 越 多 ， 性 能 要 求 也 越 来 越 高 ， 我 国明 
安 图 射电 频谱 日 像 仪 (MingantU SpEctral Radioheliograph, MUSER) 是 同时 以 高 时 间 、 高 空间 
和 高 频率 分 辨 率 对 太阳 进行 射电 频谱 成 像 的 设备 。 在 低频 部 分 的 日 常 观测 中 ， 包 含 了 两 方面 
的 需求 : (1) 对 历史 数据 的 处 理 ; (2)5 秒 钟 抽样 观测 数据 的 处 理 。 抽 样 观测 数据 需要 实时 
处 理 ， 并 在 监控 终端 显示 ， 数 据 处 理 过 程 包 含 了 数据 校 验 、 人 修正、 成 图 、 洁 化 等 多 个 步骤 ， 
传统 的 单机 处 理 模式 已 无 法 满足 大 数据 量 下 的 实时 性 要 求 。 因 此 ， 实 时 数据 计算 中 ， 使 用 
Spark Streaming 流 式 计算 这 一 新 兴 的 分 布 式 计算 方法 ， 设计 了 自 定义 的 接收 器 ， 并 将 多 个 图 
y- 形 处 理 器 节点 加 入 到 分 布 式 集群 中 。 通 过 实验 对 性 能 进行 评估 ， 结 果 证 明基 于 内 存 的 高 速 执 
© 行 引 擎 的 特点 能 显著 提高 性 能 。 期 待 能 通过 实验 进一步 优化 算法 和 配置 ， 获 得 更 好 的 结果 ， 
= 并 最 终 运 用 到 实际 环境 中 。 
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大 数据 的 分 布 式 实时 处 理 已 在 互联 网 应 用 中 广泛 使 用 ， 随 着 望远镜 性 能 的 大 幅 提升 ， 在 天 文 领域 
大 数据 的 实时 处 理 也 有 了 越 来 越 多 的 需求 。 位 于 我 国内 蒙古 锡林郭勒 盟 的 400 MHz~ 15 GHz 厘米 -分 
米 波 日 像 仪 进入 了 试 观测 阶段 0 。 在 此 阶段 ， 试 观测 数据 的 正确 、 高 效 处 理 对 设备 的 调试 、 误 差 修 
© 正 有 非常 重要 的 作用 ， 也 能 为 未 来 常规 观测 的 数据 处 理 打下 良好 的 基础 。 目 前 在 低频 部 分 的 日 常 观测 
= 中 ， 每 分 钟 产生 大 约 1. 92 GB 的 原始 观测 数据 写 和 磁盘， 同时 为 了 能 够 实时 监测 当前 的 设备 状态 和 观 
一 测 情况 ， 日 像 仪 每 5 秒 产生 抽样 的 观测 数据 ， 以 Socket 方式 向 外 写 出 ， 也 就 是 说 需要 在 5 s 内 完成 抽 
样 观 测 数据 的 处 理 ， 并 将 处 理 结果 发 送 到 监控 终端 显示 ， 和 否则 就 会 产生 数据 积压 ， 监 控 终 端 也 就 不 能 
以 准 实时 方式 反映 望远镜 的 观测 情况 。 

数据 的 实时 处 理 过 程 和 原始 数据 处 理 过 程 一 致 ， 数 据 要 经 过 预 处 理 、 天 气 数据 标识 、 数 据 标定 、 
校 验 、 洁 化 、 成 图 等 多 次 迭代 ， 成 图 、 洁 化 等 操作 还 需要 在 安装 了 图 形 处 理 器 的 机 器 上 执行 。 星 现 数 
据 量 大 、 数 据 来 源 多 、 类 型 多 样 、 处 理 过 程 复杂 等 特点 ， 这 给 数据 的 实时 处 理 带 来 巨大 挑战 。 使 用 互 
联网 中 广泛 应 用 的 开源 分 布 式 实时 计算 框架 无 疑 能 带 来 巨大 的 便利 ， 不 过 实时 的 流 式 数 据 与 互联 网 流 
式 数据 有 很 大 不 同 ; (1) 次 序 可 控 ， 不 同 于 互联 网 流 式 数据 的 出 现 不 可 预期 ，(2) 二 进 制 数据 ， 不 同 于 
互联 网 的 日 志 、 点 击 信息 等 都 是 文本 ，(3) 少 量 的 统计 逻辑 ，(4) 无 需 保存 原始 数据 ; (5) 结果 数据 量 大 
于 原始 数据 量 。 基 于 这 些 特点 ， 选 择 合适 的 分 布 式 实时 处 理 框架 将 是 实时 数据 处 理 成 功 的 关键 。 

本 文 讨论 使 用 分 布 式 实 时 计算 框架 Spark Streaming 处 理 实 时 数据 ， 编 写 了 实时 数据 接收 和 分 发 、 
处 理 模块 ， 搭 建 了 模拟 环境 对 Spark Streaming 从 性 能 和 可 扩展 方面 进行 测试 分 析 和 研究 ， 实 验 结果 表 
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明 ， 处 理 速度 要 快 于 实时 数据 产生 的 速度 ， 满 足 了 日 像 仪 低频 部 分 实时 数据 处 理 的 要 求 。 
1 实时 数据 流 处 理 


分 布 式 计算 是 解决 大 容量 数据 计算 的 ， 将 大 批量 的 计算 任务 切 分 成 许多 小 任务 ， 利 用 分 布 的 计算 
节点 计算 每 个 小 任务 ， 最 后 将 每 个 任务 的 计算 结果 合并 得 到 最 终 的 结果 。 扩 展 性 、 并 行 、 分 布 式 、 节 
点 同步 、 负 和 载 均衡 、 容 错 等 是 分 布 式 计算 最 主要 的 特点 '”。 分 布 式 处 理 通常 包含 3 种 类 型 : (1) 批量 
数据 人 处理 ( Batch Data Processing); (2) 基 于 历史 数据 的 交互 式 查 询 ( Interactive Query); (3) 基 于 实时 
数据 流 的 数据 处 理 (Streaming Data Processing) °! 。 

实时 数据 流 处 理 或 流 式 计算 ， 是 指数 据 或 事件 像 水 流 的 形式 源源 不 断 地 到 来 ， 处 理 系 统 必 须 尽 快 
对 它们 进行 处 理 ， 最 好 是 数据 出 现时 便 立 刻 对 其 进行 处 理 ， 发 生 一 个 事件 进行 一 次 处 理 ， 而 不 是 缓存 
起 来 成 一 批 处 理 。 批 量 数据 处 理 通 常 读 和 写 已 归档 的 数据 ， 而 在 数据 流 模型 中 ， 需 要 处理 的 输入 数据 
(全 部 或 部 分 ) 并 不 存储 在 可 随机 访问 的 磁盘 或 内 存 中 ， 它 们 以 一 个 或 多 个 连续 数据 流 的 形式 到 达 ， 
并 且 带 有 时 歼 性 。 批 处 理 系统 重视 的 是 总 数据 处 理 的 吞吐 量 ， 而 实时 计算 关注 数据 处 理 的 延 开 ， 即 希 
望 进入 的 数据 越 快 处 理 越 好 。 

在 调研 分 布 式 实时 处 理 框 架 中 ， 考 虑 过 多 个 框架 。 首 先是 大 名 易 易 的 Apache Hadoop, Hadoop 是 
一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 ， 是 目前 最 流行 的 大 数据 处 理 框架 ”” 。Hadoop 以 一 
种 可 靠 、 高 效 、 可 伸缩 的 方式 进行 数据 处 理 ， 它 实现 了 并 行 与 分 布 式 计算 MapReduce 的 编程 思想 。 
同时 Hadoop 不 仅仅 是 一 个 框架 ， 而 是 已 经 演变 为 一 种 分 布 式 计 算 的 生态 圈 ， 包 含 了 多 种 计算 框架 ， 
比如 可 伸缩 的 分 布 式 迭 代 图 处 理 系统 Giraph'*! ， 大 规模 的 科学 计算 Hamal“ ， 机 器 学 习 Mahout l, iÑ 
as 常 将 Hadoop 归 为 批 处 理 数据 处 理 模 型 ， 处 理 的 对 象 是 历史 数据 ， 计 算 任 务 有 开始 的 时 间 节 点 ， 数 据 
~N 处 理 完 ， 任 务 结束 并 退出 。 而 基于 实时 数据 流 处 理 的 任务 是 永 不 退出 的 。 现 在 也 有 一 些 组 件 ， 如 
Micro-batchinMapReduce, Continuous MapReduce 使 Hadoop 支持 流 式 数据 处 理 。 

S4 是 Yahoo 开源 的 分 布 式 实时 计算 系统 ， 主 要 是 为 了 解决 搜索 广告 的 展现 、 处 理 用 户 的 点 击 反 
foe'®! Storm 是 Twitter 开源 的 分 布 式 实时 计算 系统 ， 可 以 简单 、 可 靠 地 处 理 大 量 的 数据 流 '。Storm 支 
持 水 平 扩展 ， 具 有 高 容错 性 ， 且 处 理 速度 很 快 。 消 息 通 信 基 于 ZeroMQ， 保 证 每 个 消息 都 会 得 到 处 理 ， 
几乎 可 以 使 用 任意 编程 语言 开发 应 用 。 在 商业 软件 中 ， 有 IBM 的 InfoShpere 和 EsperTech 的 Esper ™ , 

Spark 是 UC Berkeley AMP Lab 开源 的 类 Hadoop MapReduce 的 通用 并 行 计算 框架 ，Spark 基于 
<= MapReduce 算法 实现 的 分 布 式 计 算 ， 采 用 Scala 和 Java 语言 实现 ， 提 供 类 似 于 DryadLINQ 的 集成 语言 

Q 编程 接口 ， 使 用 户 可 以 非常 容易 地 编写 并 行 任 务 出 。 拥 有 Hadoop MapReduce 具有 的 优点 ， 但 不 同 于 
Hadoop 的 是 Spark 的 Job 中 间 输 出 和 结果 可 以 保存 在 内 存 中 ， 从 而 不 再 需要 读 写 HDFS， 因 此 Spark 
能 更 好 地 适用 于 数据 挖掘 与 机 需 学 习 等 需要 迭 代 的 MapReduce 算法 。Spark 的 核心 是 弹性 分 布 式 数据 
集 ， 提 供 了 比 MapReduce 更 丰富 的 模型 。 

使 用 Hadoop MapReduce 框架 ， 虽 然 可 以 容易 地 实现 较为 复杂 的 处 理 和 统计 需求 ， 但 实时 性 却 无 
法 得 到 保证 。 同 时 两 个 处 理 过 程 的 中 间 数 据 ， 存 储 在 HDFS 中 ， 这 就 造成 磁盘 文件 的 频繁 读 写 ， 显 
著 降低 数据 处 理 速 度 。 通 过 Spark 提供 的 应 用 程序 编程 接口 和 基于 内 存 的 高 速 执行 引擎， 用 户 可 以 结 
合 使 用 流 式 、 批 处 理 和 交互 式 查询 应 用 。Spark 的 Job 中 间 输 出 和 结果 可 以 保存 在 内 存 中 ， 从 而 不 
再 需要 读 写 HDFS ， 能 显著 提高 处 理 速度 。 使 用 Spark 作为 执行 引擎 ， 具 有 高 效 和 容错 的 特性 ， 同 时 
为 实现 复杂 的 算法 提供 和 批 处 理 类 似 的 简单 接口 。Spark Streaming 基于 微 批 量 方式 的 计算 和 处 理 ， 可 
以 用 于 处 理 实时 的 流 数据 !.… 。Spark 能 够 支持 Python, Java 等 多 种 编程 语言 ， 特 别 是 Python, ， 有 丰富 
的 第 三 方 应 用 库 ， 如 numpy, pymatplot 和 scipy， 这 对 天 文 数据 人 处理 尤 为 重要 。 这 些 优势 都 是 选择 
Spark Streaming 作为 日 像 仪 实时 计算 框架 的 原因 。 


®© http://spark.apache.org/ docs/ latest/programming-guide.html 
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2 ”实时 处 理 


明 安 图 超 宽 频 射电 日 像 仪 是 采用 综合 孔径 技术 对 太阳 进行 成 像 观 测 的 射电 望远镜 ,数据 从 相关 带 
输出 后 ， 一 般 需 要 进行 相位 调整 、 条 纹 停 止 、 数 据 标定 、 格 式 转换 、 成 像 、 去 卷 积 等 "”。 在 每 个 处 
理 过 程 中 还 需要 与 其 他 系统 交互 ， 如 天 气 气象 信息 的 获取 、 仪 器 状态 查询 、 光 纤 延 迟 数据 查询 、 星 表 
位 置 计算 等 。 如 图 1 显示 了 日 像 仪 实时 数据 处 理 的 流程 图 。 
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Web Monitoring 
B1 明 安 图 射电 频谱 日 像 仪 实时 数据 处 理 流程 图 
Fig.1 The flowchart of real-time data processing in MUSER 
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由 数字 接收 机 产生 的 实时 数据 以 Socket/TCP 的 方式 向 外 写 出 数据 ， 数 据 经 过 图 1 中 左 侧 红色 虚 
线 框 内 的 数据 校 验 、 重 建 等 处 理 后 生成 UVFITS 文件 ， 再 经 过 图 1 右 侧 蓝 色 虚线 框 内 的 处 理 后 生成 实 
¢ 时 数据 发 布 到 网 络 监 控 端 。 其 中 蓝 色 框 内 的 处 理 过 程 需要 在 安装 了 图 形 处 理 器 的 机 器 上 执行 。 


T 综合 孔径 的 射电 频谱 望远镜 数据 处 理 过 程 已 有 很 成 熟 的 理论 和 实践 ， 但 明 安 图 射电 频谱 日 像 仪 的 
© 数据 处 理 有 上 自己 特殊 的 需求 : 


(1) 实 时 性 ， 日 像 仪 将 观测 数据 写 人 文件 存储 ， 同 时 产生 实时 数据 流 ， 实 时 数据 流 需 要 经 过 处 理 
并 将 结果 推送 到 监控 端 。 这 和 传统 的 基于 历史 观测 资料 的 数据 处 理 有 很 大 的 不 同 。 

(2) 数 据 量 大 ， 日 像 仪 的 低频 部 分 包含 了 64 个 通道 ， 而 高 频 部 分 包含 了 528 个 通道 。 图 像 处 理 
部 分 的 退 卷 积 计算 过 程 即 使 在 图 形 处 理 器 上 操作 仍 非常 耗 时 ， 低 频 部 分 的 实时 数据 每 S s 产生 8 帧 数 
据 ， 需 要 产生 128 个 脏 图 ， 再 加 上 洁 化 和 成 图 的 计算 过 程 ， 这 对 实时 性 要 求 较 高 的 实时 发 布 是 一 个 很 
大 的 挑战 。 

(3) 过 程 复杂 ， 如 图 1 描述 ， 实 时 数据 在 UVFITS 生成 和 在 图 形 处 理 器 上 的 成 图 都 需要 多 个 处 理 
步 又 ， 计 算 过 程 复 条， 同时 要 与 多 个 系统 交互 协作 完成 。 如 数据 校 验 过程 中 要 考虑 天 气 状态 ， 就 需要 
接 入 气象 站 的 数据 服务 。 

(4) 异 构 的 处 理 节点 ， 集群 中 包含 了 普通 的 节点 和 带 有 图 形 处 理 髓 的 节点 ， 而 图 形 处 理 等 操作 需 
要 在 图 形 处 理 器 节点 上 执行 。 因 此 ， 分 布 式 资源 调度 中 ， 需 要 考虑 不 同类 型 的 硬件 资源 调度 。 

综 上 ， 科 学 项 目 明 安 图 射电 频谱 日 像 仪 ， 于 互联 网 应 用 ， 尽 管 存在 相似 的 大 数据 处 理 需 求 ， 但 在 
实时 性 、 数 据 对 象 、 处 理 过 程 上 还 存在 很 大 的 差异 。 因 此 ， 利 用 Spark Streaming 的 内 存 迭 代 计 算 特 
点 ， 实 现实 时 数据 处 理 需 考虑 日 像 仪 特殊 的 实时 计算 需求 。 
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3 ”关键 技术 


3.1 自 定 义 接收 需 

目前 在 低频 部 分 的 日 常 观测 中 ， 每 3 ms 产生 1 帧 (100 000 Bytes) 观测 数据 ,每 5s 产生 8 帧 (8 x 
100 000 Bytes ) 观测 抽样 数据 。 观 测 抽样 数据 需要 实时 处 理 ， 并 将 处 理 结果 发 送 到 监控 终端 显示 。 
Spark Streaming 提供 的 Python 接口 ， 是 加 载 文本 对 象 的 文件 ， 或 是 连接 Flume, Kafka, HDFS 类 型 的 
特定 存储 系统 ，Spark Streaming 提供 的 例子 也 都 是 关于 处 理 文本 型 的 数据 对 象 ， 而 日 像 仪 的 实时 数据 
是 二 进 制 的 ， 且 具有 特定 的 数据 格式 (每 100 000 Bytes 大 小 为 一 帧 ) ， 因 此 需要 自 定 义 Spark Streaming 
的 接收 器 ， 这 个 接收 顺 能 接收 二 进 制 数据 并 分 析 数据 ， 转 换 成 弹性 分 布 式 数据 集 ( Resilient Distributed 
Dataset, RDD) 。 

Spark Streaming 支持 从 内 置 数据 源 包括 Flume, 、Kafka 、Kinesis 、HDFS 、 文 件 、 套 接 字 等 加 载 数据 ， 
也 可 以 自 定义 接收 器 从 任意 的 流 中 接收 数据 。Spark 提供 了 org.apache.spark.streaming. receiver. Receiver 
这 个 抽象 类 ， 只 需要 继承 这 个 抽象 类 ， 实 现 相 关 的 方法 ， 就 可 以 实现 自 定 义 接收 器 ， 编 程 语 言 可 以 使 
用 Scala 或 者 Java。 

在 Receiver 抽象 类 中 ， 有 两 个 关键 的 方法 需要 重 写 : 

(1) onStart( ) : 这 个 函数 主要 负责 在 接收 器 启动 时 ， 做 数据 的 接收 工作 ; 

(2) onStop( ) : 这 个 函数 主要 负责 在 接收 器 停止 时 ， 做 清理 工作 ， 停 止 接收 线程 。 

不 管 是 onStart( ) 和 onStop( ) 方 法 都 不 可 以 无 限期 地 阻塞 。 通 常情 况 下 ，onStart( ) 方法 会 启动 一 
个 新 的 线程 负责 接收 数据 ， 而 onStop ( ) 保证 接收 数据 的 线程 被 终止 。 接 收 数据 的 线程 也 可 以 使 用 
= Receiver 类 提供 的 isStopped( ) 方 法 检测 是 否 可 以 停止 接收 数据 。 数 据 一 旦 被 接收 ， 这 些 数据 可 以 通过 
~N 调用 store( data) 方 法 存储 在 Spark 中 ，store( data) 方 法 由 Receiver 类 提供。store 方法 是 一 个 阻塞 调用 ， 
= 只 有 当 所 有 的 数据 都 被 存储 到 Spark 里 面 才 会 返回 。 

自 定 义 的 接收 需 可 以 通过 使 用 streamingContext. receiverStream ( ) 方 法 在 Spark Streaming 应 用 程序 
中 使 用 ,但 在 Python 的 应 用 程序 编程 接口 中 ， 没 有 提供 使 用 自 定 义 接 收 器 的 方法 ， 不 能 直接 使 用 。 
因此 需要 一 个 中 间 的 代理 调用 自 定 义 的 接收 器 ， 创 建 MUSERStreamHelper, MUSERStreamHelper 是 一 
个 单 例 的 类 ， 提 供 一 个 静态 方法 ， 这 个 方法 通过 Py4J 可 以 在 Python 环境 中 直接 调用 ， 如 图 2, 
MUSERStreamHelper 和 自 定义 的 接收 器 MUSERStreamReceiver 都 使 用 Java 编写 ， 运行 在 JVM 中 。 


a MUSER Realtime Data 
ees ree aa a ek ee ee eT CE RE A es ee Se ae | es es Pete cal 1 
i JVM | 
Python Driver | ! 
i i 
| | 
1 1 
1 1 
i ! 
Py4J iei MUSER Stream Helper |4 MUSER Stream Receiver 
1 1 
1 用 


图 2 明 安 图 射电 频谱 日 像 仪 自 定 义 Receiver 实时 数据 处 理 流程 图 


Fig.2 The flowchart of customized receiver for realtime binary data in MUSER 


3.2 上 自 定 义 分 区 

Spark 内 部 提供 了 HashPartitioner 和 RangePartitioner 两 种 分 区 策略 ，HashPartitioner 是 计算 数据 项 
的 Key 的 Hash 值 ，Hash 值 相同 的 元 素 放 入 同一 个 分 区 ; RangePartitioner 是 将 数据 项 的 Key 同一 数据 
范围 的 数据 放 和 人 同一 分 区 。 为 了 减少 通信 开销 ， 尽 量 将 需要 进行 相同 操作 的 数据 放 在 同一 分 区 ， 另 外 
为 了 提高 集群 的 利用 率 ， 使 弹性 分 布 式 数据 集 的 各 个 分 区 上 的 数据 量 尽 量 均匀 。 

明 安 图 射电 频谱 日 像 仪 中 使 用 观测 时 间 和 频段 作为 键 值 对 弹性 分 布 式 数据 集 的 Key， 使 用 
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HashPartitioner 作为 分 区 方式 ， 因 每 个 时 间 都 不 同 ，Hash 值 也 就 不 同 ， 会 造成 分 区 过 于 分 散 ， 在 做 多 
个 数据 帧 的 积分 操作 时 ， 会 有 较 大 的 通信 开销 ， 使 用 RangePartitioner 也 不 能 完全 满足 要 求 。 因 此 需要 
实现 自 定义 的 分 区 方式 ， 可 以 使 用 Spark 提供 的 org.apache.spark.Partitioner 抽象 类 ， 继 承 Partitioner 类 并 
重 写 下 面 3 种 方法 : 

(1)numPartitions: Int: 返回 创建 的 分 区 数 。 

(2) getPartition(key: Any): Int; 返回 给 定 键 的 分 区 编号 (0 到 numPartitions-1) 。 

(3)equals( ) : 判断 相等 性 的 标准 方法 。 这 个 方法 的 实现 非常 重要 ，Spark 需要 用 这 个 方法 检查 分 区 
器 对 象 是 否 和 其 他 分 区 器 实例 相同 ， 这 样 Spark 才 可 以 判断 两 个 弹性 分 布 式 数 据 集 的 分 区 方式 是 否 相同 。 

在 Python 中 ， 因 为 没有 Partitioner 抽象 类 ， 实现 自 定义 的 分 区 方式 ， 不 需要 继承 Partitioner 类 ， 
只 需要 在 rdd.partitionBy( ) 里 使 用 一 个 Hash 函数 ， 日 像 仪 中 使 用 观测 时 间 和 频段 作为 键 值 ， 格 式 为 时 
间 _ 频段 ， 如 : 

20151101120854.354161_400 

以 下 伪 代 码 表示 将 1 天 1 小 时 中 的 所 有 频段 相同 的 放 在 一 个 分 区 中 。 


def customize_partition(key): 
keys = key. split("_") 
hashHour = hash(keys[0][6: 8]) # 计 算 小 时 的 Hash 值 
hashBand = hash(keys[1]) ## 计 算 频 段 的 Hash 值 


return hashHour + hashBand 


a rdd.partitionBy(4, customize_partition) 


-m 3.3 时 间 切 片 
mN Spark Streaming 流 式 数据 处 理 的 本 质 是 将 连续 的 数据 持久 化 、 离 散 化 ， 然 后 进行 批量 处 理 。Spark 
an Streaming 将 输入 的 实时 数据 流 以 时 间 片 为 单位 进行 拆 分 ， 目 前 是 以 秒 为 单位 拆 分 ， 然 后 以 类 似 批 处 
理 的 方式 处 理 每 个 时 间 片 的 数据 。 互 联网 应 用 的 实时 流 式 数 据 由 于 数据 流动 态 持 续 的 特性 ， 其 数据 项 
到 达 的 次 序 与 速度 无 法 控制 ， 并 且 随 着 时 间 的 延续 ， 数 据 流 的 体积 在 理论 上 是 无 限 的 。 日 像 仪 的 实时 
数据 是 观测 设备 按 观 测 时 间 顺 序 产生 ， 其 次 序 和 速度 (8 x 100 000 Bytes/5 s) 确定。 使 用 Spark 
Streaming 的 编写 程序 ， 首 先 需 要 声明 StreamingContext 对 象 ，StreamingContext 对 象 的 构造 函数 中 有 一 
个 batchDuration 参数 ， 通 过 该 参数 定义 Spark Streaming 对 数据 流 的 切 分 间隔 ，batchDuration 参数 显著 
‘ 影响 数据 处 理 速率 ， 这 个 参数 值 可 以 通过 检查 端 到 端的 延迟 判断 (可 以 在 Spark 驱动 程序 的 日 志 中 查 
看 Total delay 或 者 利用 StreamingListener 接口 ) 。 如 果 延 迟 维持 稳定 ， 那 么 系统 稳定 。 如 果 延 迟 持续 增 
长 ,那么 系统 无 法 跟 上 数据 人 处理 速率 ， 是 不 稳定 的 。 如 果 系统 不 稳定 ， 除 了 可 以 适当 减 小 batchDuration 
的 值 ， 同 时 也 要 考虑 集群 的 处 理 能 力 ， 结 合 Spark UI 任务 的 执行 时 间 ， 找 出 延迟 持续 增长 的 原因 。 这 
里 设置 该 值 为 5， 即 5 s。 
实时 数据 流 到 达 后 ， 系 统 按照 时 间 切 片 间隔 将 数据 流 切 片 后 ， 返 回 DStream， 其 本 身 封闭 了 按时 
间 片 离散 化 了 的 数据 流 。DStream 中 包含 一 个 类 型 为 HashMap 成 员 变量 generatedRDDS， 其 中 Key 是 
时 间 片 段 ，Value 就 是 弹性 分 布 式 数据 集 ，DStream 操作 和 弹性 分 布 式 数据 集 的 操作 类 似 。 
3.4 混合 类 型 工作 节点 
由 于 图 形 处 理 器 价格 昂贵 ， 不 能 在 所 有 的 计算 节点 上 配置 。 这 就 要 求 数据 处 理 一 部 分 在 普通 的 节 
点 上 计算 ,一 部 分 在 图 形 处 理 器 节点 上 计算 。Spark 集群 运行 模式 ， 可 以 使 用 独立 模式 ， 另 外 可 以 结 
合 使 用 YARN 或 Mesos 资源 调度 器 。 但 这 3 种 模式 下， 都 无 法 区 分 工作 节点 的 类 型 ， 也 就 说 Spark 在 
分 配 计算 任务 时 ,没有 办 法 区 分 哪些 节点 是 图 形 处 理 器 节点 ， 也 就 无 法 正确 地 分 配 计算 任务 。 为 此 将 
普通 的 节点 和 图 形 处 理 带 节点 分 别 单独 部 署 在 不 同 的 集群 中 ， 如 图 3， 在 普通 的 计算 任务 完成 后 ,将 
计算 结果 发 送 到 高 速 队 列 中 ， 图 形 处 理 器 节点 再 从 队列 中 获取 计算 任务 ， 队 列 在 整个 计算 过 程 中 充当 
了 数据 暂 存 的 角色 ， 数 据 量 和 处 理性 能 要 求 不 高 ， 使 用 基于 内 存 的 自 定 义 队列 。 
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3.5 共享 变量 
共享 变量 是 一 种 可 以 在 Spark 任务 中 使 用 的 


特殊 类 型 的 变量 ，Spark 中 有 两 种 类 型 的 共享 变 
量 ， 广 播 变量 和 累加 需 。 广 播 变量 用 来 高 效 分 发 
较 大 的 对 象 ， 累 加 器 用 来 对 信息 进行 聚合 。 _ | 1 | 

日 像 仪 的 数据 处 理 中 ， 需 要 对 高 精度 的 观测 


| | | 
| | | 
| | | 
目标 的 视 位 置 进行 相关 计算 ， 比 如 在 每 个 相位 差 | Spark Cluster E j 
校正 和 生成 UVW 数据 阶段 。 观 测 时 为 了 确保 相 = | 
位 补偿 精度 ， 需 要 观测 目标 的 视 位 置 计 算 精 度 优 | MQ | | 


于 1 毫 角 秒 ， 为 此 ， 采 用 精密 的 IPL 星 历 表 。 使 
用 Spark 广播 变量 ， 将 星 历 表 高 效 地 发 送 到 所 有 
的 工作 节点 ， 提 高 星 表 查 询 和 计算 的 速度 。 当 广 
播 一 个 比较 大 的 值 时 ， 选 择 既 快 又 好 的 序列 化 格式 很 重要 ， 因 为 如 果 序 列 化 对 象 的 时 间 很 长 或 者 传送 
花费 的 时 间 太 和 久 ， 这 段 时 间 很 容易 成 为 性 能 瓶颈 。 

JPL 星 历 表 以 二 进 制 文件 存储 ， 频 繁 的 文件 打开 和 关闭 是 一 个 耗 时 的 工作 ， 如 果 能 在 多 个 数据 元 
素 间 共 享 一 次 文件 配置 就 比较 高 效 。Spark 中 使 用 基于 分 区 对 数据 进行 操作 以 避免 为 每 个 数据 元 素 进 
行 重复 的 配置 ， 基 于 分 区 的 map( mapPartitions 国 数 ) 和 foreach(foreachPartitions 图 数 ) ， 只 对 弹性 分 布 
式 数据 集 的 每 个 分 区 运行 一 次 ， 这 样 可 以 帮助 降低 文件 打开 和 关闭 的 频次 ， 从 而 提高 性 能 。 


图 3 跨 集群 数据 暂 存 


Fig.3 The diagram of temporary data storage cross-clusters 


© 
> 4 实 验 


实验 是 在 汉 柏 PowerCube 创建 的 虚拟 机 上 进行 ， 使 用 5 台 配 置 相同 的 虚拟 机 ， 每 台 虚 拟 机 配备 了 
16 G DDR2 内 存 ， 两 路 Intel Xeon E5-2640 v2 CPUs, 2.0 GHz, 16 核 中 央 处 理 器 ，16 G 主 存 ，40 GB 硬 
盘 。 操 作 系统 使 用 Cent0S7，Linux 内 核 版 本 3. 10. 0。JDK 版 本 为 1. 8，Spark 版 本 为 2. 0.2， 其 中 一 个 
节点 作为 Master 节点 ， 同 时 也 是 Worker 节点 ， 其 他 4 个 节点 作为 Worker 节点 。 每 个 Worker 节点 的 
SPARK_WORKER_MEMORY 配置 为 4096 M， 实 验 主 要 测试 日 像 仪 时 间 计 算 自 定义 的 接收 器 、 处 理 时 
间 及 整个 系统 的 延迟 ，batchDuration 设置 为 5s。 测 试 数据 使 用 真实 的 原始 观测 数据 ， 每 5s 发送 8 个 
小 帧 ， 选 取 了 大 约 10 分 钟 (11: 04; 20 到 11: 15: 50) 的 测试 结果 如 图 4。 


O records/sed sec 


1.50 3.00 
1.00 2.00 
0.50 1.00 
0.00 0.00 
11:04:20 11:15:50 11:04:20 11:15:50 
(a) (b) 
sec sec 
3.00 3.00 
2.00 2.00 
1.00 1.00 
0.00 0.00 1 
11:04:20 11:15:50 11:04:20 11:15:50 
(c) (d) 


图 4 明 安 图 射电 频谱 日 像 仪 的 Spark 集群 实时 计算 任务 监控 界面 


Fig.4 The monitoring interface of streaming job in MUSER’s cluster 
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从 图 4(a) 数 据 接收 的 趋势 图 可 以 看 出 ， 接 收 器 每 秒 接收 的 记录 数 和 发 送 的 记录 数 一 致 ， 并 且 
系统 保持 稳定 。 图 4(b) 显示 了 Spark 的 调度 延迟 在 2 ms 左右 ， 可 以 忽略 不 计 。 从 图 4(c) 和 图 4(d) 
数据 处 理 时 间 随 时 间 的 变化 图 可 以 看 出 ,在 任务 提交 初期 ， 由 于 驱动 顺和 执行 器 的 初始 化 延迟 ， 
在 最 初 的 任务 执行 时 间 较 长 ， 随 后 的 任务 处 理 时 间 比 较 稳 定 ， 大 约 在 1.6s， 满 足 日 像 仪 实时 任务 处 
理 的 需求 。 


5 结束语 


Spark Streaming 犹如 其 名 “电光 火石 ”, 基于 内 存 迭 代 计 算 的 特点 ， 显 著 提 高 了 数据 处 理性 能 。 目 
HY, Spark Streaming 已 在 小 范围 使 用 ， 将 数据 以 小 批量 方式 处 理 后 ， 可 以 同时 兼容 批 处 理 和 实时 处 理 
的 算法 ， 特 别 适用 于 某 些 同时 处 理 历 史 数据 和 实时 数据 的 业务 场景 ， 也 适用 于 对 实时 性 要 求 不 是 很 高 
的 实时 计算 业务 ， 结 合 Spark 提供 的 分 布 式 数据 处 理 能 力 ，Spark Streaming 将 在 明 安 图 超 宽频 射电 日 
像 仪 和 其 他 的 天 文 数据 处 理 中 发 挥 更 大 的 作用 。 但 Spark Streaming 作为 一 个 全 新 的 实时 计算 框架 ,还 
需要 更 多 的 业务 场景 ， 特 别 是 在 天 文 数据 处 理 中 验证 其 功能 ,另外 不 能 很 好 地 支持 细 粒 度 、 异 步 的 数 
据 处 理 ， 性 能 还 需要 优化 ， 稳 定性 也 需要 更 长 时 间 的 考验 。 后 续 将 继续 研究 Spark Streaming 在 天 文 方 
面 的 应 用 ， 并 强化 Spark Streaming 的 作业 监控 机 制 。 
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Abstract; There is a growing demand for real-time processing in astronomical observations in recent 
years, meanwhile, the requirement for performance is also increasing dramatically. Mingantu Ultrawide Spectral 
Radio Heliograph (MUSER ) is a synthetic aperture radio interferometer with high temporal, spatial and 
spectral resolution. In daily observation of low frequency, MUSER contains two aspects of data processing, 
historical data processing and sampling observational data which is produced every 5 seconds and processed in 
real-time mode. The procedure of raw data processing contains validation, correction, clean and other 
processing steps, then the results need to be transmitted in real-time mode to monitoring end without user 
constantly refreshing or sending a request. The traditional stand-alone processing mode has been unable to meet 
the requirements of large amounts of data in real-time mode. In this paper, we explored the use of Spark 
Streaming in a new approach for MUSER real-time calculations across multiple machines and evaluated its 
effectiveness and efficiency. A customized receiver was created for real-time binary stream of MUSER. We also 
extended the Spark cluster by adding multiple GPU's nodes. The experiments have shown that Spark Streaming 
can significantly improve MUSER real-time processing performance for its memory-based execution engine. We 
might look forward to optimize the algorithm through experiments and configurations so as to obtain better 
results, and apply it to the actual environment of MUSER finally. 
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